Search CORE

2 research outputs found

Recherche d'information dans les documents XML : prise en compte des liens pour la sélection d'éléments pertinents

Author: Mataoui M'Hamed
Publication venue
Publication date: 01/01/2016
Field of study

156 p. : ill. ; 30 cmNotre travail se situe dans le contexte de la recherche d'information (RI), plus particulièrement la recherche d'information dans des documents semi structurés de type XML. L'exploitation efficace des documents XML disponibles doit prendre en compte la dimension structurelle. Cette dimension a conduit à l'émergence de nouveaux défis dans le domaine de la RI. Contrairement aux approches classiques de RI qui mettent l'accent sur la recherche des contenus non structurés, la RI XML combine à la fois des informations textuelles et structurelles pour effectuer différentes tâches de recherche. Plusieurs approches exploitant les types d'évidence ont été proposées et sont principalement basées sur les modèles classiques de RI, adaptées à des documents XML. La structure XML a été utilisée pour fournir un accès ciblé aux documents, en retournant des composants de document (par exemple, sections, paragraphes, etc.), au lieu de retourner tout un document en réponse une requête de l'utilisateur. En RI traditionnelle, la mesure de similarité est généralement basée sur l'information textuelle. Elle permetle classement des documents en fonction de leur degré de pertinence en utilisant des mesures comme:" similitude terme " ou " probabilité terme ". Cependant, d'autres sources d'évidence peuvent être considérées pour rechercher des informations pertinentes dans les documents. Par exemple, les liens hypertextes ont été largement exploités dans le cadre de la RI sur le Web.Malgré leur popularité dans le contexte du Web, peud'approchesexploitant cette source d'évidence ont été proposées dans le contexte de la RI XML. Le but de notre travail est de proposer des approches pour l'utilisation de liens comme une source d'évidencedans le cadre de la recherche d'information XML. Cette thèse vise à apporter des réponses aux questions de recherche suivantes : 1. Peut-on considérer les liens comme une source d'évidence dans le contexte de la RIXML? 2. Est-ce que l'utilisation de certains algorithmes d'analyse de liensdans le contexte de la RI XML améliore la qualité des résultats, en particulier dans le cas de la collection Wikipedia? 3. Quels types de liens peuvent être utilisés pour améliorer le mieux la pertinence des résultats de recherche? 4. Comment calculer le score lien des différents éléments retournés comme résultats de recherche? Doit-on considérer lesliens de type "document-document" ou plus précisément les liens de type "élément-élément"? Quel est le poids des liens de navigation par rapport aux liens hiérarchiques? 5. Quel est l'impact d'utilisation de liens dans le contexte global ou local? 6. Comment intégrer le score lien dans le calcul du score final des éléments XML retournés? 7. Quel est l'impact de la qualité des premiers résultats sur le comportement des formules proposées? Pour répondre à ces questions, nous avons mené une étude statistique, sur les résultats de recherche retournés par le système de recherche d'information"DALIAN", qui a clairement montré que les liens représentent un signe de pertinence des éléments dans le contexte de la RI XML, et cecien utilisant la collection de test fournie par INEX. Aussi, nous avons implémenté trois algorithmes d'analyse des liens (Pagerank, HITS et SALSA) qui nous ont permis de réaliser une étude comparative montrant que les approches "query-dependent" sont les meilleures par rapport aux approches "global context" . Nous avons proposé durant cette thèse trois formules de calcul du score lien: Le premièreest appelée "Topical Pagerank"; la seconde est la formule : "distance-based"; et la troisième est :"weighted links based". Nous avons proposé aussi trois formules de combinaison, à savoir, la formule linéaire, la formule Dempster-Shafer et la formule fuzzy-based. Enfin, nous avons mené une série d'expérimentations. Toutes ces expérimentations ont montré que: les approches proposées ont permis d'améliorer la pertinence des résultats pour les différentes configurations testées; les approches "query-dependent" sont les meilleurescomparées aux approches global context; les approches exploitant les liens de type "élément-élément"ont obtenu de bons résultats; les formules de combinaison qui se basent sur le principe de l'incertitude pour le calcul des scores finaux des éléments XML permettent de réaliser de bonnes performance

Archives ouvertes de l'Université M'hamed Bougara Boumerdes

Reformulation de requêtes dans les systèmes de recherche d'information dans des documents XML

Author: Mataoui M'Hamed
Publication venue
Publication date: 01/01/2007
Field of study

116 p. , ill. , 30 cmNotre travail se situe dans le contexte de la recherche d’information (RI), plus particulièrement la recherche d'information dans des documents semi structurés de type XML. La reformulation de requêtes est une phase importante dans les systèmes de recherche d’information. Elle permet en effet de récrire la requête de l’utilisateur selon les informations retrouvées par la requête initiale. De manière générale, ceci consiste, dans le cas notamment de la réinjection de la pertinence, d’extraire à partir des documents jugés pertinents par l’utilisateur, les mots-clés importants puis les rajouter à la requête initiale. L’objectif de ce projet est de proposer une solution pour adapter ce processus bien connu et bien établi dans les systèmes de recherche d’information plein texte, à la recherche d’information dans des documents XML. L’utilisation de la technique de réinjection de pertinence dans le contexte de la RI structurée nécessite la prise en charge de la dimension structurelle en plus de la dimension textuelle. Dans ce travail nous avons tenté d’apporter des réponses aux différentes questions posées, à savoir : Comment effectuer une reformulation de requêtes par réinjection de pertinence dans ce contexte? Comment extraire les meilleurs termes à partir d’unités d’information jugées pertinentes et non pertinentes par l’utilisateur, sachant que ces unités peuvent avoir des sémantiques différentes (ex : un paragraphe, une section, un titre), et peuvent être imbriquées les unes dans les autres? Quels poids doit-on assigner à ces différents termes dans ces différents cas de figures? Est-il opportun, par exemple, d’assigner le même poids à un terme provenant d’un titre et d’une section? Comment intégrer l’information structurelle dans la formation de la nouvelle requête ? Nos propositions concernent les catégories de stratégies : le ré-ordonnancement de la liste des résultats; et puis l'expansion de requêtes. Concernant la stratégie de ré-ordonnancement, nous proposons deux méthodes : le réordonnancement contextuel et le ré-ordonnancement par nom de Journal. En ce qui concerne l’expansion de requêtes, nous proposons deux méthodes : expansion par ajout de termes et expansion par ajout de contraintes structurelles. L’évaluation effectuée porte sur les méthodes de ré-ordonnancement appliquées sur des résultats renvoyés par le système de recherche d’information XFIRM en utilisant des jugements de pertinence issus de la campagne INEX. L’évaluation des formules proposées nous a permis de constater que les résultats obtenus après ré-ordonnancement sont meilleurs que ceux de l'exécution de bas

Archives ouvertes de l'Université M'hamed Bougara Boumerdes